查看原文
其他

点击进入数据新闻聊天室 | 澎湃美数课的疫情报道分享实录

人大新闻系 RUC新闻坊 2020-09-04

3月12日晚6:30

“2020特殊时期学点数据新闻”微信课程群

主题


澎湃美数课的疫情报道分享实录

分享嘉宾


 吕   妍:澎湃新闻数据新闻主编

 孔家兴:澎湃新闻数据编辑

 邹熳云:澎湃新闻数据编辑

 王亚赛:澎湃新闻可视化设计师


 主持人:方洁老师





我们在疫情报道中做了

什么





吕妍

澎湃新闻数据新闻主编





大家好,今天我带了我们三位同事跟大家分享数据新闻方面的疫情报道;我会跟大家大致介绍一下我们在疫情期间数据新闻的总览概况;孔家兴会重点介绍疫情实时地图;王亚赛负责介绍可视化;邹熳云负责介绍图文类型分析稿件,我们各自简单介绍我们的想法之后,欢迎大家多提问。因为我们还在报道中,还有很多问题没有来得及去总结。


从整个疫情报道来看,我们从1月19-20号左右比较正式启动我们的疫情报道,也是大多数媒体窗口期的开始。

(澎湃新闻疫情报道数据新闻总览)


我们第一个想到是疫情实时地图:我们觉得我们需要把分散的疫情数据整合,从而去呈现疫情走势;这个产品其实可以算是澎湃新闻美数课数据类型产品中迭代次数最大,结构最庞大的产品;它目前主要由四大板块组成:国内疫情地图/国内治愈地图/海外疫情地图/海外治愈地图;这些迭代是基于我们一个线上的数据库去运算之后呈现在前台的地图产品中,这个部分我们尝试了很多之前没有尝试过的数据更新方法,比如说,我们现在的操作链条是,可以做到一个工具去刷新然后实时读取我们后台更新的数据。


这个就意味着你每次更新的时候,并不需要去手动在后台去上传CSV文件或者是json等等其它类型的文件,它是通过一个刷新工具,直接去读在线文档表格里面的数据,从而简化整个更新流程。


第二个板块,是疫情地图基本理顺之后,考虑到我们虽然积累了很多数据,但我们还没有利用数据去挖掘疫情故事,因此我们开始考虑做疫情数据分析类稿件;


这个部分的第一环节是想做国内疫情扩散;我们的定位是做时空分析;现在来看,这篇稿子的传播效果很好,读者给与的良好反馈也让我们很受鼓舞;之后我们会根据每个阶段可以聚焦的话题去操作,比如我们发现某些城市在确诊数量/疑似病例数量等数据虽然在全国排不上名次,但叠加人口密度和医疗资源后,发现其实这些城市疫情特别严重,为此我们便考虑到做一个45个重点疫区的数据分析;


医疗环节也是一个很重点的话题,为此我们做了医疗队驰援和了解武汉床位的话题;


在治愈情况逐渐明朗之后,我们会去盘点不同地方治愈速度等等信息;还有官方诊疗方案,我们觉得可以整体上反映出官方对整个疫情的判断;最近我们在关注海外疫情。


其实我们基本上是基于每个阶段的疫情发展去回应公众的疑问。


在这个过程,我们也做了相对的延伸话题:比如在企业层面,我们看到国务院出台了企业减免税款的政策后,我们的第一反应是与其是直接照搬官方政策,还不如更明确地告诉大家,假如你有一家企业,在这个政策可以帮助你省多少钱;而这也是是公众很关注的;这样就能把一个相对大的话题换化到个案计算,虽然不能代表每个企业,但可以让这个政策看起来更加具象;此外,还有复工复学以及钻石公主号之类的。


此外,在这个领域里比较值得一提的是我们还做了一篇历史人文类的报道:因为在最开始疫情报道的前两周,我们的状态是一方面是报道者,一方面也像当事人,或者像读者,心情起落比较跌宕,因此在这个过程中人不免会去想一些比较宏大的话题,比如说能感受到人的渺小,或者说觉得怎么到科技进步的今天大家在对待这种疫情仍会产生一些意念上的差别吧,所以我们就觉得应该站在历史维度去看待,可能可以把这个疫情放在一个很好的坐标系上,所以就产生了2000年年传染病史这篇文章。


我个人非常喜欢这篇文章;因为它从数据可视化的角度去讲述历史;虽然有很多历史垂类的公号可能比我们更会讲历史,但我们的优势是历史数据和可视化很好地结合起来;这篇文章也取得了很好的传播效果;因为虽然发表了一个多月,但还有很多公号要求我们开白名单;这也许就是数据新闻long shelf life的体现吧,它是可以不断地被拿出来给人去反复去观看。


此外,在常规选题之外,这次我们比较特殊的一点是我们加了社交网络的运营;因为此前我们比较懒,觉得公众号很难做出声响,但在去年年底我们纠正了这个错误观点;因为之前有很多读者了解到我们的澎湃美数课,想询问我们去哪里查看我们的作品,我们的回答就只有澎湃新闻app;因此我们意识到我们需要在重点社交平台去布局,在今年年初,我们开了微信公众号;然后两周前,我们也在微博开设账号(id都是“澎湃美数课”)。


伴随疫情的发展运营微博、微信是一件很有趣的事情,因为我们发现之前大家说数据新闻能否出圈,其实很大原因是传播工具可能就在圈内,缺少一些关键的传播场景,因此作品很难出圈。所以像我们可能有一些稿件在微博/微信会得到意想不到的反馈;此外我们还可以跟直接跟读者交流,比如读者会直接在后台指出我们的数据可能存在什么问题等等。


还有一个不同的点是这次我们尝试数据开放和共享;我之前跟我们同事聊,我们经常会抱怨信息公开程度不够,作为媒体,在数据开放上我们好像一直是被动方;在媒体界,我们自己经常会去清洗数据,有时候这些工作甚至是重复的;如果我们媒体之间没有任何的共享,我觉得是很遗憾的事情;所以这个观念大概两三年前我们就有了,而且一直想做相关的项目。但是以前共享的一些数据,其实不声不响的在我们自己的github上面,可是也没有特别多人注意到。


这次疫情数据,我们首先开放的是实时地图数据库;我们现在已经更新了明细数据1万多条;我们每天会在石墨和github上更新,可以供大家去做计算(具体地址可以到澎湃美数课微博微信去取)。还有我们一篇个病例的稿件,在这篇中我们对疫情详情做了结构化拆分,现在我们也把数据开放出来;


现在我们主要还是属于线上工作的状态,每周会开选题会预判,交流细节操作,相互借鉴;其他项目也会单独建群或者语音开会。






我们怎么去做新冠肺炎疫情地图





孔家兴

澎湃新闻数据编辑





同学们大家好,我主要从产品的角度,和大家聊聊疫情期间我们是怎么去做新冠肺炎疫情地图产品。


我大概从三个角度跟大家分享一下我们是怎么做这个产品的。

首先,是我们做这个产品的主要目的。

第一点,也比较重要的就是,实时跟踪国内外疫情数据的变化,能够让读者及时获取疫情的数据。


然后在这个基础上,我们会增加一些维度配合分析去看疫情的发展过程,比如我们这里增加的疫情趋势以及变化,还有疫情的回顾,可以看到从数据的起始时间,1月15号左右开始到现在,疫情的发展状态。


此外,如何在一个产品里提高信息的传播效率,这也包括几个层面:数据的更新和数据的获取,是不是够及时,是不是有便利性;在产品的设计上能不能让读者非常清晰地获取信息。

我这里大概整理一下整个产品的产品逻辑。首先,我们要把之前的疫情数据搜集起来,然后让它成为一个数据库。然后,在此基础上,这个数据库还要可以不停地进行更新。


我们当中尝试了几种更新的方式。起初,我们是在石墨文档里建立一个表格,根据一些重要的通报节点,比如卫健委或者一些官方通报、央视的一些节点去按批次进行更新,那个时候其实是相对偏手动化的工作,当中的很多文件需要替换,这是产品初期的更新状态。


现在我们是把之前的数据,从石墨转移到了Google sheet里,然后我们调用了一个API的工具,把线上的所有数据存在一个API里面,然后转存到澎湃后台的数据库里。


用户每次点开产品的时候,就会自动调用数据库里的数据。这样的话,我们在产品页面端的数据基础就有了,而且现在是比较实时的状态,我只要刷新工具,数据就会从Google sheet传到数据库里。读者刷新页面的时候,就能看到数据的变化。


数据转存的部分就相当于是桥梁的作用。另一方面,数据还可以在数据公开里,给大家提供数据进行使用。


数据库的数据从数据维度上来说,也经历过几次迭代。起初,我们主要收集的还是省一级通报里的数据。后来新增了市一级的数据。目前,还包括海外各个国家的数据。


在这些数据的基础上,我们在疫情地图里就做了国内外的疫情地图。还有疫情趋势的可视化,以及不同国家地区、省市疫情的明细表单。


从产品的呈现上来说,主要以总分的形式有层次感地呈现疫情的数据。

滑动看疫情地图展示


我一点点给大家讲,首先是大家看到的,项目头部上的有现存确诊、累计确诊、累计出院、累计死亡的数据总览。


其实,疫情期间做疫情地图的产品也很多,但是每家都有各自不同的侧重点。


我们选的维度,一个是能够保证数据的准确性。从数据的获取上来说,都是卫计委通报的一些公开数据,准确性上是有一定的保障。有的产品可能会有疑似病例的数据,从数据源的追溯上来说,不一定是非常准确的,所以我们在产品里没有放疑似病例部分。


上面的这部分数据,疫情总览的数据也有一些变化。最开始,当时疫情的阶段是新增病例非常多,所以一开始最左边不是现存确诊,而是新增病例,当时可以明显看到每天新增的数量很多。到后阶段,出院的数据不断上升,我们就开始关注现存确诊的情况。


地图的部分主要是用填色的方式去表现确诊人数这一数据维度。后来我们还迭代了治愈版的地图,另外一个填色方式就是以治愈率来填色。


在开发的过程中,主要的问题是很多地理信息的修正。因为现在公开的一些地图文件里,其实有很多很明显的错误,我们在开发的过程中对它进行了很多修正,包括边界问题,包括有的地图版本比较老,对行政区撤并的情况不够准确,就对这部分做了大量的修正。


地图下面的趋势线部分,国内是做了三组,是根据疫情的发展不同阶段进行迭代的,开始只有累计病例的趋势线。这三个按钮可以去点击进行组合、切换,方便读者去看现在疫情的发展状态。


后面在这一基础上,我们又加了新增确诊病例的趋势线,就可以很明显的看到,现在已经基本上处于归零的状态。最后增加的是现存确诊病例的趋势,即去掉累计治愈、死亡的人数,这个数据如果能趋近于零,可能就达到拐点的状态。下面的表格部分可能很多产品里都有,我们这边特别给每个省做了该省的疫情趋势。


大家可以看到,地图上的信息还挺多的,我们一直有一个顾虑,是怕读者想要了解的信息还有很多,但是看不过来。所以我们后来就在前面的部分,加了四个按钮去进行切换。

(切换按钮)


这样的话,就能比较清晰地去看每一种地图的呈现和数据变化。这四个按钮,在微信里分享给别人的时候,比如点了国内治愈,分享之后,别人再点进来就可以看到国内治愈的地图,也是帮助大家了解不同的地图情况。


最后简单讲讲产品的运营。


最重要的是数据的更新,我们并没有采取爬取网络数据的方式进行数据更新,是安排我们的同事每天值班去跟踪卫健委的数据,也包括央视的官方数据,数据这部分是运营的重头。产品形式会根据不同的疫情发展状态、诉求去做迭代。最后就是把整合的数据进行数据公开,方便更多人来做关于疫情的报道。





我们如何做数据新闻分析稿件





邹熳云

澎湃新闻数据新闻编辑





我主要负责稿件攥写部分。今天,我主要以763例来分析稿件怎么做;其实,763例在很久之前就开始策划了:在疫情刚开始时,我们就考虑是否做人传人的报道;但那时有局限性;因为政府公开的病例详情数据并不多,因此很难展示出来,比如一级传播二级传播三级传播等;而且政府也出了很多关于聚集性疫情的通告,因此我们觉得我们很难做出信息增量,为此也延迟了一段时间。


后来由于到疫情爆发后,大概在正月初二左右,我们发现政府公开的数据越来越详细;而且有个收集数据的同事告诉我们,地市级政府公开的病例详情数据比省级政府公开的更加详细;比如上面这张图,我们可以看到地市级政府会把病例的整个行动轨迹都具体公开出来。


之后我们测试了几个地方,确实看到一些还挺不一样的东西,就会觉得比当时很多媒体上看到的报道要更详细。所以我们就开始想,要不要把地市级政府以及卫健委公号的数据给收集起来,然后来做一篇类似疫情总览的文章.


后来数据大概是用了两天的时间就收集了,其实还是挺快的,当时有1000多条,然后清理到900多条,然后再清理,到最后剩下763条。但是就是数据非常详实,它也让我变得非常贪婪。我想说我们花这么多精力去做这件事情,我们就一定要把这个数据用到完整,就想说有没有可能做一篇整个疫情总览的文章;实际上那个时候的思考已经偏离了一开始想要做时空关系这个逻辑。



所以可以看到一开始最初的这个框架,它其实是非常全面的,但是全面的另一个反面就是它会很缺乏叙事重点,让你觉得整个逻辑很平,读下来没有什么特别让人惊喜的地方。所以就是当时整个框架填满之后,你其实是没有什么感觉了,你就会觉得说我交差了,但是就没有那种你在做疫情报道有给大家任何新的亮点的那种激情。

(最初拟定的框架)


后来是因为吕老师最后在审稿的时候,她跟我们点出来,告诉我们,你这有点太平了。


所以,现在大家看到成稿的整个叙事逻辑实际上是当时最初的那个框架的第二个部分。这里就是有一个诀窍,就是我们后来再回想该怎么样树立主题的时候,我去看了一些之前自己在收集和整理数据的时候随手中做了一些笔记。我会觉得它其实是一种挺好的做题的方法,就是如果你发现自己被太多的数据所淹没的话,你可以时不时地记下一些自己觉得很有趣的一些点。


我觉得有时候带一些主观的情绪和想法去观察问题和去分析数据,其实不失为是一种方法吧,因为这种很小的想法,它可能更容易引起普通读者的共鸣。因为数据新闻不管再怎么说也是新闻,所以你可以把它理解成是一种新闻记者的直觉,它其实就是让普通读者也能迅速地从你这篇文章中获得新知,获得他需要知道的东西。


但是,纵使我们最后决定以第二部分来作为整个主要内容,我们还是有很多的东西没有装进去,这是让我觉得挺可惜的。其中比较可惜的是时间线,就是当时我们原本是计划想把人口流动和疫情发展的时间线给结合起来,去展示一下人们是如何在这个春节时期进行正常进出城市的活动,而政府的整个防控工作又是怎么样一步一步没有追上这种人流,以至于让这个疫情一步一步扩散,这是当时我们想要做的事情,但是试了很多种可视化的方式,都没有找到最令人满意的。




然后我想说,后来我看到第一财经发的这篇《假如武汉的警铃有机会被拉下了,可以是哪一天?》文章时,我就觉得,这就是我当时想要表达那个思维,但是因为我文笔也好,也可能是我的分析的思路也好,最后还是没有把这个方式或者这个角度全部展现出来。所以我觉得其实我们还是可以经常向传统媒体报道方式去学习,去学习他们讲故事的一些方法,做题的一些思路,我觉得很多时候是非常值得我们借鉴的。因为至少从我来讲,我做数据新闻,有时候可能会因为数据太占据我的思维,导致我对于整个写作其实可能没有来得及去那么思考,所以会有比较可惜的地方。




我们如何制作可视化图表





王亚赛

澎湃新闻可视化设计师





以下是本次疫情工作中,我制作的部分图表。


(王亚赛设计的部分图表展示)


大家可能比较关心的这些图都是由什么工具制作的?我总结了一下我制作的疫情相关稿件所用到的可视化工具。



上述表格中,《视频:新冠病毒全球首例传播地图》我们只在微博发了。其余稿件都在我们美数课的栏目上可以看到。


首先我来讲一下这个视频的制作。我用了uber 的开源工具 Kepler.gl (https://kepler.gl)去制作 ,里面有个 Arc 圆弧路径的模式,只要在上传的数据中有输出地和输入地的经纬度,就可以画出优美的曲线。调整 Source——Target不同的颜色,可以看到整体的传播的趋势。里面也有个设置,可以去制作每一天的新增,看到每一天的效果。

( Kepler.gl 操作界面)


所以我把到每一天的累积效果截图,最后用AE合成视频。可以看到多个国家的首例确诊案例都是从中国、伊朗和意大利回国。


那接下去我再分享本次疫情稿件中制作的三个图表。


第一个图的内容是「封城前多少后期确诊患者出入武汉」。熳云的想法是,展示每一个确诊案例的具体的停留过地点,时间确诊日期。我先后尝试了excel、Processsing,但效果都不理想;我们想我们要不还是聚焦一个汇总的情况,舍弃个人的情况,先看看有什么结论?后来我们想到了叠嶂图(joyplot)。


(叠嶂图)


设计思路:黑色是从各个省份前往武汉的人,橙色是从武汉离开前往各个省份的人数,小山越高,代表当天离开各个省份/前往武汉的人越多。可以看到确诊案例中,前期有一些从各个省前往武汉的人,后期有比较多的人离开了武汉,形成连绵的小山峰。这张图我是用 Processing 制作的,当然也可以用 Ai 制作。


那我们还是想展现出每个确诊案例,我们开始聚焦离开「武汉后前往多个城市的后期确诊患者」,从武汉离开至少又去了两个地方。


这是一个路径关系的图,因为武汉是个中心点,所以,我们采用了圆形树状图( Circular Dendrogram),以武汉为中心,其他路径向周围延展(如下图所示)。



设计思路:以武汉为中心,一个一个的扩散,每个点先到达武汉外的第一圈,然后这些人从第二圈去了第二圈所在的地方。个别的人还去了第三个地方。



第三张分享的图表内容是「新冠肺炎逝者大多是本身有基础疾病的老人」。


关于逝者,我们整理的是冷冰冰的数据,但是我们呈现的应该是人文。所以关于这个逝者的数据,我们想用特别的方式呈现,于是想到了在非常规可视化中相对常见的花的方案。之前我也有用花的模式做过烟花污染、抑郁症女孩的微博情绪分析。



设计思路:每个逝者都是一朵花,每个花都有五朵花瓣,每个花瓣代表对应的疾病,填充黑色代表该逝者有这样的疾病。花心颜色为性别,花的大小为年龄。并以手绘的风格展示。我还设置了一个60岁大小的圆圈作为每朵花的衬底,可以看到很多每一行中几乎都有三四朵花超出了这个范围,意味着这些人的年龄都大于60岁。并且很多花上都涂有颜色,代表很多逝者患有基础疾病。


这个手绘的风格,并不是一个一个人工画上去的,还是用 Processing 写出来的效果。


那刚才说的三个图的案例我都是用 Processing 制作的,它是一门 Java 编程语言,一个创意编程,主要应用于生成艺术,也可以做动效字体、交互游戏、设计工具等等。


在可视化方面上,虽然Processing 不像 D3.js 是一个专门的可视化语言,但是它的功能很灵活,目前很多图表,只要知道制作思路,它基本上都能做到,而且修改起来也相对方便。





Q&A环节




Q1:

黎樟浩:老师们好,我来抛砖引玉吧。主要是两个问题,是从读者的角度出发的。


1-对比几个疫情地图作品(比如定丁香医生,腾讯健康等),请问各位老师们觉得它们存在哪些差异吗?怎样才能吸引到读者?


2-在入口上,丁香医生和腾讯健康的入口是不是比澎湃更浅?更便于找到作品?请问老师们是如何思考这个问题的?


吕妍老师:第一个问题,产品的差异性,因为疫情的数据以及大家的需求层面有一定的共通性,所以如大家所见,很多平台的作品其实都会比较像。我们在操作过程中,希望避免的一点是盲目跟风,别人有什么功能我们就加什么功能。其实在迭代过程中,扛住了一些需求。我们迭代基本还是根据我们判断读者的需求来走,比如趋势折线图就没有把所有维度都放进去。


我觉得各家的产品特点,丁香医生的数据更新,就我们来看是比较全、比较快的,我们有时候在交班时也会对一下,和丁香医生在死亡数、确诊数上有没有明显的出入,他们在权威性上做得还是非常好的。腾讯有一个优势是,迭代非常灵敏。


入口层面,澎湃目前的入口还是挺多的,APP的轮换开屏就有这个地图。在澎湃APP的首页有个固定位置,也可以很快找到。澎湃的微信推送,每篇稿件下方都有产品入口。就澎湃目前的产品线来讲,已经尽所能给到这个产品很多入口。我没有研究过在其它平台上可以怎样找到对应的产品,就澎湃目前的用户群、使用场景来讲,我觉得现在入口的安插还是比较全面的。

Q2:

张文骁:想问一下负责疫情地图产品的老师:在世界疫情数据板块为什么没有统一选取WHO的数据,通过各个媒体整理出来的数据会不会存在时间上标准不一致的问题?


孔家兴老师:这个问题迭代的过程里也思考过,但是首先它与我们平时更新的信息源的获取渠道有比较大的关系。


我们的国际疫情还是主要跟踪央视的数据和别的一些媒体的数据,因为有权威性的问题。WHO那边的数据更新可能不会那么及时,它可能是每天会有总览的数据、最后一个总结性的数据。


按照更新的节奏上来说,我们现在的更新也会更加动态一点,变化也会比较明显一点。


吕妍老师:国际数据方面,现在许多国际媒体参考的是John Hopkins University汇总的一个dashboard。WHO数据在及时性方面不太能满足需求,因为他们也是汇总收集得来的,而且很多时候途径可能还比媒体报道更冗繁一点。


Q3:

黎樟浩:老师,那从官方通报到数据更新,这里是人工吗?还是刚刚提到的自动抓取?这里没太听明白。(是说产品数据更新)


吕妍老师:产品的数据是人工录入到一个在线文档里,然后通过文档和产品代码的计算,通过一个中间页面的刷新,自动上传到项目里进行更新。


所以数据的录入是人工的,但是数据更新的上传更新是自动的。没有使用爬取数据的方式,因为没有哪个权威来源可以满足所有国内外数据更新的需求。数据的来源方式目前非常分散,容易重复,所以第一道仍然是人工的,也有利于核实数据。


Q4:

万力豪:老师,您好,我也有两个问题:1、对于数据地图,分别列举了累计确诊和治愈,为什么不单独罗列一个现有确诊呢?我觉得作为用户而言,相对于累计确诊而言,身边的现有确诊病例会不会是大家更加关注的?   2、还有用一个逝者代表一朵花那个作品,感觉就数据表达清晰度而言,传统的图表(柱状图、折线图之类的)表现出来会不会更加清晰?


孔家兴老师:关于第一个问题,之前看丁香医生是有做了现存确诊的地图,当时还是疫情高新增的时期,视觉上来说和累计确诊的趋势差异不是很大。当时的一个产品迭代想法是想用绿色系的治愈去看恢复的情况(治愈率和累计确诊对应)。


地图的功能上并没有设计能够定位到用户所在地的,所以现存确诊在这一点上不是太有帮助。治愈地图可能是比较鼓舞人的那种感觉,一天天变好。


王亚赛老师:关于第二个问题,传统图表是可以做到非常简洁明了的统计。但我和另一个编辑更想展示每个人的具体情况。


吕妍老师:这个部分也因为,当时是在治愈过半的时候做到死亡数据的。说实话此前专讲死亡数据的稿件也有不少了,都是以统计结论直接呈现居多。但是,我们这篇稿件里,希望在讲述治愈率上升这样的好消息的同时,也不忘那些过世的人,所以不能很分散的呈现各种维度的统计结论,希望有一个总览式的呈现,也不是简单的重复其他稿件的结论了。


而要不影响文章节奏,死亡数据只占一部分,不宜出现太多张图。一张图要讲述多个维度,这种偏艺术化的处理更合适一点。


Q5:

葛异:老师我有两个问题:第一,从人工拔取卫健委官方数据出来到地图更新要多久,各地方出台时间不同,安排多人多少人多长时间跟踪一次(是不同人分配不同的地理区位吗),然后数据收集好上传到地图变化需要几次把关啊,如何确保统计人数时没有错误。


第二,国内新增病例的斜线图,14000多例新增那天的峰值为什么不处理一下,其他的都是4000以下的,而且非湖北地区每日新增都很少,最近全国新增都在放缓,放在以2000为间隔的坐标轴中显得特别平缓,有考虑过把14000那天的数据单独标明一下然后纵坐标采用500甚至更小的间隔吗?


吕妍老师:1、每天两个班次,早班2人,晚班1人。把关主要是依靠确诊总数,后续更新时都会看“新增xx例,总计xx例”,是否符合。所以后面更新的人,既更新新增数据,又核对总数,是最主要的核查。如果明细数据不对,新增和总数总有一方会出问题。


2、爆增的那一天是客观存在的,所以没有考虑去修改坐标。解决方式是趋势图表可以通过按钮进行筛选,可以看清非湖北的趋势。

不过在海外地图的处理是,用到了常规坐标和指数坐标两种,方便看清数据。


Q6:

张文骁:想问一下负责写稿和可视化的二位老师,可以具体讲讲两个人工作是一种什么合作模式吗(分工、沟通)?我们准备做数据新闻作品但是这方面缺乏经验


邹熳云老师:我们这边一般是编辑先报选题、找数据、写框架、画草图,等草图和框架吕老师审过后,就让设计师加入开始制图。设计师读完编辑的草图和框架,会提出一些自己的想法,然后我们再讨论再一遍遍完善草图。设计师在作图的同时,编辑这边就开始写稿,最后差不多同一时间结束,稿子就完成啦。


Q7:

邓海滢:老师好!我想问一下您提到数据共享的问题,除了澎湃是否还有别的媒体/组织在做呢?像媒体或者其他非政府组织之间共享数据,是否有固定的平台呢?比较想问平时。


吕妍老师:平时的话,有一些NGO做一些开放数据的处理,比如上海青悦对大气污染数据的开放比较有名,广州绿网对污染数据的开放也做的挺好,这次也入围了sigma。


还有一些商业公司会对政府数据进行合并和清洗。比如天眼查的商业数据来源其实主要是商务部和裁判文书网等等公开来源,但是他们的挖掘整合做的很好。还有青塔是专做高等教育类的数据挖掘。


Q8:

熊隽晗:老师们好!非常感谢各位老师今天的分享,我有两个问题:1、疫情期间很多媒体都发表了数据新闻,比如财新,DT财经等等,我感觉面对这样的事件性新闻,选题很容易重复,会不会有做到一半发现撞题的情况,如何做到在保证时效的同时又让选题具有新意呢?


2️、我一直觉得美数课的信息图做得很美观,感觉老师们审美非常棒,可不可推荐一些老师们平常会看的,做的比较好的有关数据可视化网站或书籍/资源呢~


吕妍老师:这个问题的确存在,这也是我们这次做题的角度基本上都比较大的原因。想要做那些绕不开、必须回答的题目。一些相对小的切口,我们这次有许多就放过了。避免撞题的方法有两个:一个是预判早,尽量比别家早的做出来。第二个是要做的精,即使比别家晚发出来,也还是有增量,让人愿意看,需要看。


还有的情况是,前方记者采到了独家的信息,比如方舱医院的动画视频。


不过也有因为撞题没有增量就放过的。复工这个题目我们一直在酝酿,但是没有找到很好的数据和切口,而过程中DT和财新的稿子已经出来了,所以我们就没有继续操作,当时编辑是交了一版框架,但是还没有通过。


熊隽晗:谢谢吕老师,想进一步再问一点,在撞题的情况下,有哪些策略让自己的数据新闻做得更加精呢?老师可以举个例子吗?


吕妍老师:一些基本的自我审视方式,比如我们交流稿子的时候,编辑最害怕我说的话就包括:“这篇稿子不够解渴”,代表没有挖掘出多少内容增量;“这篇稿子太平了”,表示写作上没有好的节奏,读完不知道核心的takeaway是什么;“这篇稿子太干了”,表示写作非常无趣,即使有干货,但是让人读不下去。这些,都可以用来评判一个选题的完成度好不好。


王亚赛老师:推荐 information is beautiful的网站,国际上最优秀的可视化都在上面啦~https://www.informationisbeautifulawards.com/。


平时也比较看 Bloomberg、WSJ、Pudding等网站,对于工作的可视化有很多帮助。


书的话就推荐一本经典可视化书籍《The visual display of quantitive information》。


Q9:

邓海滢:谢谢老师的回答! 跟着撞题这个话题问一下……就是数据新闻制作流程还是比较复杂的,有学者会认为这不是一个”即时“的新闻品类,像这次疫情,老师会觉得数据新闻作品有时效性上的欠缺吗?也像上面同学追问的那样,有什么选题切入策略,弥补时效不足的遗憾呢?


吕妍老师:数据新闻比较难做到第一落点的角度,常常以第二落点居多。在这次疫情上面,其实实时地图反而是比较即时性的新闻品类,由于信息公开形态不够完善,这些地图其实是完成有些地方政府的工作,所以可以算是很“即时”。


因为常常操作第二落点,也因为生产成本偏高,我们的报题过程是非常严格的。前面列的内部语言也常常用到。


我们有三大原则:由头、切入方式、数据来源。题目立项不仅仅要解答why this的问题。


由头是为了弄清楚why now的问题,为什么要这个时候做这个题?媒体是一种公共资源,需要排优先级。即使是疫情这种大热点,也有一些不那么符合大家核心需求的角度,可能我们的优先级就放到后面。


切入方式是为了弄清楚如何讲故事,很多有价值的数据题目可能可以做成论文、甚至写成丛书,那么即使有其意义,但如果没有清楚的切入方式,很可能不适合做成新闻作品。


数据来源就是面对现实了,很好的由头和切入方式,但是“巧妇难为无米之炊”,没有好的数据也白搭。


基本上这三个层次明确了,题目做出来的概率会大很多,成功的概率也大很多。

我们总结过,数据新闻选题流产,常常是因为“黄”了或者“糊”了。“黄”了是因为错过了节点,发出来不尴不尬,内容厚度也不够,热点也过了。“糊”了就是想法很美好,但是自己挖的坑没填上。


我们经常说,如果选题会上对自己狠一点,确定是否满足了前面的三大要素,就可以“长痛不如短痛”。


Q10:

江志航: 老师们好,请问老师们,数据新闻在策划和制作的时候,有哪些方法能够使得作品是有一定深度,而不是呈现出一种简单地数据展示的感觉呢?还是说其实咱们在数据新闻的制作过程中更看重数据的量和可信度,对于作品的深度没有很高的要求?


邹熳云老师:我个人的想法是,可信度是最基本的,因为不管怎么说这是新闻,真实性和准确度是必须保证的。


但数据量和作品深度则依情况而定,核心是【你这篇稿子回答什么问题?带来什么增量?】比如赶突发,为了保证速度,就不太可能有时间去保证量,切面也会是较单一的。或者说新议题,比如人造肉,你做的比较早,属于科普性质的,那也不需要大量的数据。但如果是老生常谈的新闻,你的选题就得和别人不一样。要么是你找到了很大量的别人没用过的数据,比如把整个openlaw的一个议题相关的案件全分析了。要么是你找到了一个更新颖的角度,能把问题分析的更透彻,或是看到了别人看不见的东西。


比如,这次疫情,我很喜欢路透社做的一篇,他们分析了中国科学家发的所有论文,发现很多都没经过peer review。当时看到觉得这个角度很棒,这篇篇幅也不是很长,但因为角度很好,所以也很吸睛。


徐雪莹:接着上面江同学的问题,想向老师们请教一下数据新闻“温度”的问题~ 以数据呈现的趋势图、对比图能为人们提供各种宏观的有益参考,但是也会把人物抽象成一个个数字或图形。我自己在看各种疫情可视化图表时,觉得这种展现方式似乎没有具体的故事描写来得温情。想问下老师们,你们在策划以及实施数据新闻报道时,会把新闻的“温度感”放在比较重要的位置吗?如果是的话,一般会如何实现呢?(感觉之前亚赛老师展示的画版图应该可以算上?)还是说,数据新闻本来长处就不在展现新闻的温度,所以在这方面一般不需要太重视呢?


邹熳云老师:这个我来抢答一下。我在写763例这篇的时候,很害怕自己的冷冰冰的文字让人看不下去。而且疫情这个话题本身就带有情感,如果想让读者好好读我们的分析,是不是也得先展示些人情味?因此决定用一个比较详细的患者案例开头,想要写出一种时空倒叙的感觉……应该还是没写出来,但努力往这种感觉靠近了哈哈。


个人感觉,在这种大议题下(平时也是),传统媒体的报道方法非常值得我们学习。即使数据编辑本身无法深入一线采访拿到一手的信息,但我们的成稿方式也可以参考一下他们的。目的不是为了煽情什么的,而是怎么能让普通读者更好地消化我们的数据分析。


吕妍老师:一篇稿件很难解决所有问题。


但是,在数据的温度上面,有些方向可以考虑。1、关注数据背后的人,可以是采访受这个话题所影响的人,也可以是讲一个当事人的小数据,也可以是纳入专家来对数据进行解读。2、可视化表达手法上,数据如果放到视频的形态里,是否可以结合影像资料来叙事,把观众带入场景里来看数据;又或者是否可以采用数据艺术的方式,虽然可能一开始难懂,但可能可以更好的调动读者的情绪。等等。


Q11:

王楠:谢谢老师的分享~刚刚老师有提到原数据很详实,在一篇新闻中可能会包含很多个论点。请问在数据非常丰富的情况下,内容的安排和数据的取舍有哪些方法吗,既让读者了解消化信息,篇幅又不会过长?


吕妍老师:有一些原则可以参考:1、哪些信息不看数据用文字就能讲明白,可以舍弃或者弱化;2、哪些数据读者已经看了很多遍了,可以舍弃或者弱化;3、哪些信息用数据来表达的表现力不及其它形式,可以舍弃或者弱化;4、还有行文的节奏,在哪些部分盘桓太久,影响阅读的流畅性,可以打薄;5、实在太多,拆成几篇。


Q12:

王云林:老师您好,谢谢您的分享。关于有的事后逻辑性的简单陈述事实会显得平淡而没有亮点,但是如果在保证逻辑清晰的前提下,特别着重于某一点进行切入会不会容易造成个人主观色彩太强量,请问有没有常用的方法去把控不致过于主观?谢谢。


吕妍老师:一般情况下,我们区分调研的逻辑和叙事的逻辑。

调研的逻辑可以遵循规律根据“是什么、为什么、怎么办”来走,以确保对一个事物基本认知不产生偏差,难度更高的还可以借助专家或者读书的方式来更好进入主题。


但是叙事的时候,需要进行逻辑再造。不能期待读者是抱着学习的心态来读稿子的,读者是来逛街的,你要吸引他来看你的内容。这个时候,你可以进入到你接收信息时的直觉,哪些信息你读到的时候让你对这个内容产生了最浓厚的兴趣,或许这个稿子的开头或重点。



方洁老师:非常感谢四位老师和我们分享的两个多小时,听完有两个最大的感受:1.专业媒体有着“专业”的操作,澎湃的数据新闻团队的确很强大,在疫情期间保持着优质和持续的创作;2.专业的数据新闻人有着超强的学习和沟通能力,不仅实践操作得好,而且分享也很有逻辑和层次,回答提问切中要害,有针对性。再次感谢澎湃美数课四位老师的分享,也感谢大家的聆听。


RUC新闻坊数据与新闻研究中心出品

美编:罗斯




往期回顾



议题、情绪和话语:新旧媒体交织演绎的肺炎舆情史

1183位求助者的数据画像:不是弱者,而是你我

2286篇肺炎报道观察:谁在新闻里发声?

点击进入数据新闻聊天室 | 踩踩不跑堂


特别策划

求助者画像 | 肺炎报道 | 武汉来稿

疫情故事 | 新年献词 | 澳大利亚山火

伤医 李子柒 | 抖肩舞 |  主持人大赛

高以翔 | 双十二 | 大学排行 | 申报广告

小欢喜 | 利奇马 | 埃航事件 | 甘柴劣火

原生家庭 | 圣母院火灾 | 基因编辑婴儿

记者节快乐 | 信息之美奖 | 周杰伦新歌 

第19届美国网络新闻奖作品解析(上)

第19届美国网络新闻奖作品解析(下)


技术前沿

AI世界 | 相关性驱动报道 | 新闻业算法变革

记者行业 | 自动事实核查 | 媒体未来技术

最佳杂志封面 | 品质新闻 | 记者新技能

传媒市场的18个趋势 | 在线评论与可信度


报道规范

流行病 女性记者 | 社交媒体信息引用

家庭暴力 | 强奸和性暴力事件 | 环境报道

报道地震 | 采访儿童 | 枪击案 | 核辐射 


趣闻杂谈

“转发锦鲤” | 新闻史手迹 | 双十一的心理血型 

家长进游戏群 |年度热词“有毒” | 亲友群辟谣


数据新闻习作

角膜捐献 | 卡车司机 | 北京月嫂 

男性医美 | JK制服 | 相声新江湖

古风音乐之辨 | 赴美抗癌 | 临终关怀在中国





Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存